iT邦幫忙

0

(23)Python的基礎介紹和爬蟲

  • 分享至 

  • xImage
  •  

Python 網路爬蟲 Web Crawler (上)

什麼是網路爬蟲?
網路爬蟲是一個透過程式自動抓取網站資料的過程,在這資訊爆炸的時代中,資料的收集是相當重要的工作項目之一,但如果透過人工的方式來收集網站資料,效率低之外也會花費掉非常多的時間

網路爬蟲的應用
搜尋引擎像是 Google ,yahoo 等應該是網絡爬蟲最成功的應用了,它們透過爬蟲在網際網路中收集優質的網站與內容,所以當用戶在搜尋引擎上搜尋關鍵字時,就能夠找出相關的網站資料

網路爬蟲的原理
1.請求網頁內容
2.抓取所需資料
3.儲存資料

網路爬蟲的基本流程
1.連接到特定網址,抓取資料
2.解析資料,取的實際想要的部分

抓取資料
關鍵心法
盡可能地讓程式模仿一個普通使用者的樣子

解析資料
json格式資料
使用內建的json模組即可

但網路上的網站大部分的格式卻為HTML的格式
如果資料是這種格式我們就必須使用第三方套件BeautifulSoup 來做解析

安裝套件
PIP套件管理工具
安裝Python時,就一起安裝在電腦裡了

安裝BeautifulSoup
可以用PIP套件管理工具去安裝第三方套件BeautifulSoup
我們只需要使用這個指令
pip install beautifulsoup4
就可以成功安裝

下一篇會用程式來實作網路爬蟲抓取資料

資料來源:https://www.webscrapingpro.tw/what-is-web-scraping/
https://www.youtube.com/watch?v=9Z9xKWfNo7k&list=PL-g0fdC5RMboYEyt6QS2iLb_1m7QcgfHk&index=19


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言